对于我的大学项目,我最初想在MapReduce上实现一个组合聚类算法。我已经完成了KMeans。现在我的问题是:能否将任何其他聚类算法与MapReduce上的Kmeans相结合?如果是,是什么算法,过程是怎样的?如果无法合并,如何对现有KMeans进行增强? 最佳答案 您可以应用一种方法来智能地选择初始质心,而不是随机选择它们。有论文介绍了改进的K-Means算法。您可以引用其中的一个或多个并创建您自己的改进K-Means算法。 关于java-在MapReduce中组合聚类算法,我们在S
我正在开发著名的WordCount程序的一个稍微改进的版本,它应该输出单词在书中所占的百分比。例如:...war0.00002332423%peace0.0034234324%...基本上,我需要计算所有单词,计算每个单词的出现次数,将这组值除以总计数。所以至少应该有两个工作:工作1获取input目录并生成两个输出目录:output1和output2Mapper:将(word,1)对写入output1,将("total_count",1)对写入output2Reducer:在output1中对具有相同key的pair求和得到(word,n),计算总计数使得("total_count",
我正在尝试将MahoutKMeans用于一个简单的应用程序。我根据数据库内容手动创建了一系列向量。我只是想将这些向量提供给Mahout(0.9),例如KMeansClusterer并使用输出。我阅读了MahoutinAction(版本0.5中的示例)和许多在线论坛以获取背景知识。但是,如果没有通过Hadoop使用文件名和文件路径,我再也看不到使用MahoutKMeans(或相关集群)的方法了。文档非常简略,但是Mahout是否可以再以这种方式使用?当前是否有任何使用MahoutKMeans的示例(不是来自命令行)。privateListkMeans(Listallvectors,dou
我正在尝试使用java中的hadoopmapreduce编程计算文件中特定单词的出现次数。文件和单词都应该是用户输入。所以我试图将特定单词作为第三个参数与i/p和o/p路径一起传递(In,Out,Word)。但我无法找到将单词传递给map功能的方法。我尝试了以下方法,但没有用:-在映射器类中创建了一个静态字符串变量,并将我的第三个参数(即要搜索的词)的值分配给它。然后尝试在map函数中使用这个静态变量。但在map函数内部,静态变量值为Null。我无法在map函数中获取第三个参数的值。是否可以通过JobConf对象设置值?请帮忙。我在下面粘贴了我的代码。publicclassMyWord
我是hadoop的新手。我已经完成了字数统计,现在我想做一个修改。我想获取文本文件中出现次数最多的单词。如果,正常的字数统计程序给出输出:a1b4c2我想编写只给我输出的程序b4这里是我的reducer函数::publicstaticclassReduceextendsReducer{intmax_sum=0;Textmax_occured_key;publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableva
我想构建一个hadoop应用程序,它可以从一个文件中读取单词并在另一个文件中进行搜索。如果这个词存在——它必须写入一个输出文件如果单词不存在-它必须写入另一个输出文件我在hadoop中尝试了几个例子。我有两个问题两个文件各约200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他方法可以做到这一点?如何将数据写入不同的文件,因为hadoop的reduce阶段的输出只写入一个文件。是否可以为reducephase设置一个过滤器以将数据写入不同的输出文件?谢谢。 最佳答案 我会怎么做:按单词拆分'map'中的值,发出(,)(
各位,我找到了很多关于计数词的例子,但找不到计数字母。我只是想把单词拆分成字母,然后数一数,但是我的代码是错误的。有人可以帮我弄这个吗?非常感谢。这是我的代码:A=load'./in/*.txt';B=FOREACHAGENERATEFLATTEN(TOKENIZE(LOWER((chararray)$0)))aswords;C=FOREACHBGENERATEFLATTEN(REGEX_EXTRACT_ALL(words,'([a-zA-Z])'))asletter;D=groupCbyletter;E=FOREACHDGENERATECOUNT(C),group;DUMPE;
有谁知道python中的一个包可以在一个非常大的无向图中(100,000个节点和很多边)中选择多个集群,以便最小化集群内的距离平方和或类似的东西?我现在正在查看MCL:http://micans.org/mcl/ 最佳答案 看起来要么使用mahout进行光谱聚类,要么这个MCL算法都可以工作。 关于python-Python、Hadoop或其他语言中的图形聚类,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.
我有一组包含许多不同字段的推文raw_tweets=LOAD'input.tsv'USINGPigStorage('\t')AS(tweet_id,text,in_reply_to_status_id,favorite_count,source,coordinates,entities,in_reply_to_screen_name,in_reply_to_user_id,retweet_count,is_retweet,retweet_of_id,user_id_id,lang,created_at,event_id_id,is_news);我想找出每个日期最常用的词。我设法按日期对
您好,我试图在Mahout中运行KmeanClusteringExample,但遇到了示例代码中的错误。我在下面的代码片段中遇到错误集群cluster=newCluster(vec,i,newEuclideanDistanceMeasure());报错CannotinstantiatetheTypeCluster(这是一个接口(interface),我的理解)。我想在我的样本数据集上运行kmeans,任何人都可以指导我吗?我在我的EClipseIDE中包含了以下Jarmahout-math-0.7-cdh4.3.0.jarhadoop-common-2.0.0-cdh4.2.1.jar